#regularización de políticas

FM-IRL: Flow-Matching para modelado de recompensas y regularización en RL

Descubre cómo FM-IRL combina Flow-Matching con RL para mejorar la exploración y generalización en políticas de aprendizaje por refuerzo.